大型ML型号和数据集已经需要使用多GPU系统进行分布式模型培训。为了利用多GPU系统提供的权力,消除GPU间通信中的瓶颈至关重要 - 互连异构性质的问题挑战。在这项工作中,我们呈现TACCL,这是用于大规模多GPU系统的集体通信原语的合成器。 TACCL将异形拓扑和输入大小进行编码为合成问题,以生成优化的通信算法。 TACCL建立在标准的NVIDIA集体通信库(NCCL)之上,允许它成为PYTORCH等框架中GPU通信的替代品,具有最小的变化。 TACCL为全球,AllToAll和ALLERDUCE等通信基元生成算法,该算法高达3美元的速度超过NCCL。使用TACCL的算法加快了专家模型内部混合物的端到端培训,以17 \%$。通过将优化问题分解成零件并利用多GPU拓扑中的对称性,TACCL在不到3分钟内合成高达80-GPU的集体,比其他基于综合的状态快至少两个数量级 - 艺术集体通信图书馆。
translated by 谷歌翻译
人工智能(AI)已成为日常谈话的一部分和我们的生活。它被认为是彻底改变世界的新电力。 AI在行业和学院都有大量投资。但是,目前的AI辩论中也有很多炒作。基于所谓的深度学习的AI在许多问题中取得了令人印象深刻的结果,但它的极限已经可见。自20世纪40年代以来,AI一直在研究中,由于过度预期和相关的失望,该行业已经看到许多起伏。本书的目的是提供AI,其历史,其潜力和局限性的现实画面。我们相信AI是一个助手,而不是人类的统治者。我们首先描述了一个人是什么以及它在几十年中如何发展。基础之后,我们向大规模数据对人工智能主流的重要性解释了大规模数据的重要性。涵盖了AI,方法和机器学习的最常见的表示。此外,介绍了主要应用领域。计算机愿景一直是AI发展的核心。本书提供了对计算机愿景的一般介绍,并包括接触我们自己研究的结果和应用。情绪是人类智慧的核心,但在AI中使用了很少的用途。我们介绍了情绪情报的基础知识和我们对主题的研究。我们讨论超级智力,超越人类理解,解释为什么在目前的知识的基础上,这种成就似乎是不可能的,以及如何改善AI。最后,摘要是由AI的当前状态制成,并在将来做什么。在附录中,我们了解AI教育的发展,特别是从我们自己的大学内容的角度来看。
translated by 谷歌翻译
作为因果参数的平均处理效果(ATE)的估计分为两个步骤,其中在第一步中,建模治疗和结果以包含潜在的混乱,并且在第二步中,将预测插入到其中ATE估计器,例如增强逆概率加权(AIPW)估计器。由于对混乱与治疗和结果之间的非线性或未知关系的担忧,有兴趣应用非参数学方法,例如机器学习(ML)算法。一些文献建议使用两个单独的神经网络(NNS),其中网络的参数没有正则化,除了NN优化中的随机梯度下降(SGD)。我们的模拟表明,如果没有使用正则化,则AIPW估计器会受到广泛的影响。我们提出了AIPW(称为Naipw)的正常化,这在某些情况下可以有所帮助。 Naipw,可否提供与AIPW相同的属性,即双重稳健性和正交性属性。此外,如果第一步算法收敛到足够快,则在监管条件下,Naipw将是渐近正常的。我们还在NNS上施加小于中等L1正则化的偏差和方差方面比较AIPW和NAIPW的性能。
translated by 谷歌翻译
近来增加大型机器学习模型的趋势需要分发培训和推理任务。考虑到培训这些模型的巨大成本,必须在计算和沟通中解锁优化以获得最佳性能。然而,深入学习框架中的计算和通信内核之间的当前逻辑分离遍及此类障碍的优化机会。通过整体考虑破坏此抽象可以提供许多优化,以提供分布式工作负载中的性能改进。手动应用这些优化需要在每个场景中的底层计算和通信库中的修改,这是耗时和容易出错的。因此,我们呈现Coconet,用DSL表达具有计算和通信的程序。 Coconet包含几种机器学习感知转换,以优化程序和编译器以生成高性能内核。作为第一类构造的计算和通信允许用户在高级抽象上工作,并应用强大的优化,例如融合或传播和计算重叠。 Coconet使我们能够以几行代码在大型语言模型中优化数据,模型和管道平行工作负载。实验显示椰子显着优于最先进的分布式机器学习实现。
translated by 谷歌翻译